Сайт Информационных Технологий

НОВАЯ ТЕОРИЯ ПРИЗНАКОВ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

Н.Г.Федотов

Пензенский государственный университет

Abstract — The paper is dealing with the theory of forming the image features, independent of image movements , rotations and homotheties. This method has the following distinctive properties: many new features can be constructed easily as well as the functionals for standard images movement characteristics measurement; the theory can be expanded to tone and colored images; the soft computation can be easily performed in massive parallel algorithms.

В распознавании образов традиционно выделяют два этапа: формирование признаков и решающую процедуру. В кибернетической литературе исторически сложилось так, что подавляющее большинство работ по распознаванию образов посвящено решающим правилам и практически нет работ по формированию признаков. Этот этап по общепринятому мнению является эмпирическим и зависит от интуиции проектировщика распознающей системы.

Подход с позиций стохастической геометрии, развитый в работе [1] и дополненный принципом мягких вычислений, позволяет восполнить этот пробел и, наряду с конструктивной теорией признаков, дать практические методы генерации большого числа признаков распознавания изображений. Столь мощное смещение акцента с решающих правил на новые признаки распознавания дает основания говорить о новом понимании изображений.

В работе [1] предложено в качестве признаков распознавания изображений использовать вероятности геометрических событий, под которыми понимают результат взаимодействия геометрических объектов: пересечения, покрытия и т.п. Роль геометрических объектов выполняют, с одной стороны, сложные траектории сканирования со случайными параметрами (отрезки, линии, кривые, фигуры и т.п.), с другой стороны фрагменты распознаваемого изображения. Рассматривается структура подобных распознающих систем, примеры конкретных технических реализаций. В работе [1] рассмотрены также возможные расширения базисного метода распознавания, основанного на стохастической геометрии. Одно из расширений связано с усложнением наблюдений случайного события - пересечения линий развертки с изображением, т.е. связано с применением более сложных признаков распознавания.

В работе представлены начала новой теории формирования признаков распознавания, независящих от движений изображений, а также от их линейной деформации, иначе говоря, от афинных преобразований. Отличительной чертой группы рассматриваемых признаков является представление каждого из них в виде последовательной композиции трех функционалов, поддающихся мягким вычислениям.

Рассмотрим входную сетчатку распознающего устройства, под которой будем понимать сканируемую часть плоскости изображения. В этой части плоскости располагается некоторое изображение, тогда как оставшаяся часть плоскости фоновая. Таким образом изображение финитно. Рассмотрим случайную прямую , которая может пересекать изображение. Предположим, что пересечение прямой иизображения позволяет нам вычислить некоторое число g, характеризующее их взаимное расположение. Производя серию случайных бросаний прямой на плоскость, получаем выборку для случайной величины g. Далее, можно определить какую-нибудь эмпирическую характеристику n случайной величины g. В [1] предложено описанную процедуру реализовать в электронной системе и использовать для распознавания изображений. Структура подобных распознающих устройств получается достаточно простой, поскольку осуществляется совмещение сканирования и распознавания.

Математическая сторона рассмотренной процедуры интенсивно исследовалась в стохастической геометрии. Было выяснено, что при некоторых условиях характеристика n может иметь явный геометрический смысл. Для нас важно, что, легко реализуясь в устройствах, эта идея может служить исходной точкой для получения новых признаков распознавания образов как в теоретическом анализе, так и в практической сфере.

В [1] приводятся формулы, на основе которых строятся критерии распознавания. Рассматриваются только бинарные изображения (черные фигуры на белом фоне).

1. Рассмотрим изображение в виде кусочно-дифференцируемой кривой, которая может быть границей фигуры. Пусть g - число пересечений этой кривой со случайной прямой . Тогда математическое ожидание Мg пропорционально длине кривой.

2. Рассмотрим изображение в виде выпуклой фигуры. Это может быть выпуклая оболочка некоторой другой фигуры. Пусть g - длина пересечения выпуклой фигуры со случайной прямой . Тогда средние величины Мg0, Мg, Мg2 пропорциональны соответственно периметру, площади и собственному потенциалу однородного слоя. Тгасе-преобразование. Приведенные выше формулы и их многочисленные аналоги имеют для распознавания образов следующие недостатки: 1) число этих формул ограничено, поскольку ясно выраженных геометрических характеристик не так много, а признаков требуются тысячи и более; 2) формулы применимы только для бинарных изображений. К достоинствам следует отнести возможности параллельных вычислений (одновременно обрабатывается несколько прямых сразу) и стохастической реализации, последнее позволяет оборвать процесс при достижении нужной точности, кроме того, вычисленные признаки не зависят от движения объектов. Известно, что обычно признаки сильно зависят от поворота и сдвига объекта, в то время как во многих задачах распознавания поворот и сдвиг объектов совершенно не информативны.

В данной работе предлагается обобщение приведенного выше подхода с целью преодоления его недостатков и с сохранением достоинств, причем это обобщение в некотором смысле полное.

Обозначим буквой F финитное изображение. Если дана прямая , то число g, характеризующее взаимное расположение прямой и изображения, будем вычислять согласно некоторому правилу Т: g=Т(,F); отображение Т будем называть функционалом. Для нас желаемым свойством является независимость вычислений от движения объекта, поэтому единственное требование, которое мы накладываем на Т, формулируется следующим образом. Пусть изображение претерпело сдвиг и поворот, при этом возникло новое изображение F? . При этом же сдвиге и повороте прямая перейдет в прямую ? , оставаясь, таким образом, “вмороженной” в изображение. Требуется, чтобы Т(,F)=Т(? ,F? ). Это равенство должно быть верным для всех прямых и всех допустимых изображений. Такое свойство назовем полной инвариантностью функционала Т. Следует отметить, что понятие полной инвариантности весьма сильно расширяет возможности распознавания образов, ибо это необязательно число пересечений, длина секущей и т.д. Например, если изображение цветное, переменной яркости, то таких функционалов можно найти довольно много. Итак, круг функционалов и обрабатываемых изображений значительно расширен.

Аналогично, так и в стохастической геометрии, определена случайная величина g=Т(,F), распределение которой не зависит от сдвигов и поворотов изображения. Поэтому числовые характеристики этой случайной величины опять могут служить признаками изображений, которые определяются специальными техническими устройствами и системами. Недостаток нового семейства признаков - первоначальное отсутствие ясного геометрического смысла. И заранее не известна их различающая сила. Однако для распознавания образов это не так важно, ибо решающей все-таки является экспериментальная проверка.

Отметим еще одно свойство вполне инвариантного функционала Т (Тгасе): он не обязательно определяется лишь сечением прямой изображения. Для его вычисления может быть привлечена также и другая информация, например, свойства окрестности этого сечения.

Чтобы понять, что предложенное обобщение в некотором смысле исчерпывает все его возможности, изложим теорию Тгасе-преобраэований (или Тг-преобразований). Прямая , если введены полярные координаты на плоскости, характеризуются расстоянием р от начала координат до нее и углом j (с точностью 2) ее направляющего вектора:

= {(х,у):соsj +siпj = р}, = (j ,р),

где х,у - декартовы координаты на плоскости. Если позволить параметру р принимать также и отрицательные значения, то

(j ,р) = (j +,-р).

Таким образом, множество всех направленных прямых, пересекающие круг радиусом й с центром в начале координат (“сетчатку”), однозначно параметризуется множеством

М ={(j ,р):0р, RрR},

при условии, что параметры (0,р) и (,-р) задают одну прямую. Видно, что множество прямых на сетчатке есть в топологическом смысле не что иное, как лист Мебиуса. Множество чисел Т((j ,р),F), зависящее от точки на листе Мебиуса М, есть, таким образом, некоторое преобразование изображения, которое назовем Тг-преобразование. Если, например, при численном анализе Тг-преобразование представлено матрицей, то будем называть ее Тг-матрицей. Если направить ось 0j горизонтально, а ось 0j вертикально, то в точке j j, i, будет расположен элемент матрицы с номером (i,j), т.е. значение Т((j ,р),F). Здесь j j, i - некоторые значения равномерных дискретных сеток на указанных осях. Матрица будет 2-периодична в направлении горизонтальной оси, причем через каждый интервал длины столбцы ее будут переворачиваться.

Будем считать дополнительно, что если прямая не пересекает изображения то Т(,F) есть заданное число (например 0), или другой фиксированный элемент, если функционал Т нечисловой. В этом случав первоначальному изображению F соответствует Тг(F) - новое изображение (можно трактовать Т((j ,р),F) как изображение, характеристики которого в точке (j ,р) ) - его Тг-образ.

Заметим, что известное преобразование Радона может рассматриваться как пример Тг-преобразования.

Коротко остановимся на том, как меняется изображение Тг(F) при сдвигах и вращениях исходного изображения F. Если первоначальное изображение поворачивается, то его Тг-образ сдвигается по горизонтальной оси 0j . Если же происходит сдвиг исходного изображения на некоторый вектор, то его Тг-образ претерпевает следующие преобразования. Лучше их изложить в терминах Тг-матриц. Столбцы остаются неизменными, на своих местах, но могут сдвигаться вверх или вниз.

Обычная евклидова мера dj dp листа Мебиуса инвариантна к указанным преобразованием, поэтому плотность распределения всякой функции, заданной на листе Мебиуса, в данном случае функций изображения Тг(F), не зависит от указанных преобразований, т. е. если изображение F сдвинуто и повернуто до состояния F', то распределения значений функций изображений Тг(F) и Тг(F') одинаковы. Именно поэтому их значения могут трактоваться как случайные функции, не зависящие от движений исходного изображения. Этим доказано, что при данном выше обобщении признаков, действительно, сохраняется инвариантность.

Триплетные признаки.

Рассмотрим формирование триплексных признаков, представляющих последовательную композицию трех функционалов:

П(F) = Ф(Р(Т(F((j ,t)))))

Каждый функционал (Ф, Р и Т) действует на функции одной переменной (j , р и t) соответственно. Для каждого из трех функционалов легко можно придумать десятки разных конкретизаций, удовлетворяющих требуемым условиям. Следовательно, сразу получаем тысячи новых признаков, инвариантных к движениям. Для распознавания 2n объектов требуется порядка n признаков, следовательно, мы получаем возможность распознавать очень большое число изображений, например идеограмм.

Функционал Т, соответствующий Тг-преобразованию, подробно рассмотрен выше. В дискретном варианте вычислений результат этого преобразования, или Тг-трансформанта Т(Р· (j ,t)), представляет собой матрицу, элементами которой являются, например, значения яркости изображения F на пересечениях со сканирующей линией (j ,р). Параметры сканирующей линии р определяют позицию этого элемента в матрице. Последующее вычисление признака заключается в последовательной обработке столбцов матрицы с помощью функционала Р, а затем в преобразовании полученной периодической функции с помощью функционала Ф в число-признак П(F).

Рассмотренные триплетные признаки распознавания могут быть вычислены в высшей степени параллельном процессе. Подобно признакам, формируемым нейронными сетями, данные признаки не имеют наперед заданного смысла, их отбор осуществляется в ходе машинного эксперимента, принимая во внимание исключительно лишь их полезность для классификации.

Работа поддержана Российским Фондом Фундаментальных исследований (проект 97-01-00106).

Литература

  1. Федотов Н. Г. Методы стохастической геометрии в распознавании образов. М: Радио и Связь, 1990.
  2. Федотов Н.Г., Кадыров А.А. Новые признаки изображения, инвариантные относительно группы движений и аффинных преобразований. //Автометрия, № 4, 1997.
  3. Федотов Н.Г. "Оценка точности стохастического метода измерений", Измерительная техника N9,1996.
  4. Федотов Н.Г. Тужилов И.В. "Нейрокомпьютинговые технологии для системы генерации признаков распознавания образов" Информатика - машиностроение N1, 1997.
  5. Eedotov A.G. and Kadyrov A.A. Image scanning in machine vision 1eads to new understanding of image. In Proc of 5th International Workshop on Digital Image Processing and Computer Graphics. August 23 - 26, 1994 Samara Russia held by the Internathionai Socicty for Optical Engineering (SPIE).
  6. Kadyrov, A. A., and N.G. Fedotov "Triple Features. Pattern Recognition and Image Analysis": Advances in Mathematical Theory and Application 5.4 (1995) : 546-56.

Site of Information Technologies
Designed by  inftech@webservis.ru.